F3. Kontinuerliga slumpvariabler
(fort F2) Varians
Låt \(\mu\) vara väntevärdet för slumpvariabeln \(X\)
Variansen beskriver spridningen runt väntevärdet. Mer specifikt är variansen det föräntade kvadratiska avståndet från väntevärdet.
\(V(X) = E((X-E(X))^2)\)
eller
\(V(X) = E((X-\mu)^2)\)
Orsaken till att man kvadrerar avstånden är att det kommer vara både negativa och positiva avstånd, och att de kan “ta ut varandra” om man summerar direkt.
Standardavvikelsen är \(\sqrt{V(X)}\) och får ner spridningsmåttet på samma skala som slumpvariabeln \(X\).
(fort F2) Variansen för en diskret slumpvariabel
\(X\) är en diskret slumpvariabel
\(V(X)=\sum_{\text{alla x}} (x-\mu)^2P(X=x)\)
Låt \(X=\) “antal prickar
Vi har tidigare visat att \(E(X)=3.5\)
\[\begin{split} & V(X)=\sum_{x=1}^6(x-3.5)^2\cdot \frac{1}{6} = \\ & \frac{1}{6} ((1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2) = \\ & \frac{1}{6} ((-2.5)^2 + (-1.5)^2+ (-0.5)^2+ (0.5)^2+ (1.5)^2+ (2.5)^2) = \frac{17.5}{6} \end{split}\]
På en speciell vägsträcka gäller att slumpvariabeln \(X = \text{antal olyckor på en vecka}\) har följande fördelning
| Utfall (x) | 0 | 1 | 2 | 3 |
|---|---|---|---|---|
| \(P(X = x)\) | 0.70 | 0.20 | 0.06 | 0.04 |
Beräkna det förväntande antalet olyckor under en vecka
\[\begin{split} & E(X) = \sum_{x=0}^3 x\cdot P(X=x) = \\ & 0\cdot 0.70 + 1 \cdot 0.20 + 2\cdot 0.06+ 3\cdot 0.04 = 0.44 \end{split}\]
\(\therefore E(X)=\mu = 0.4\)
Symbolen \(\therefore\) står för därför är min slutsats att
Vad är variansen? (var inte en tentauppgift)
\[\begin{split} & V(X)=\sum_{x=0}^3 (x-\mu)^2\cdot P(X=x) =\sum_{x=0}^3 (x-0.44)^2\cdot P(X=x)=\\ & (0-0.44)^2\cdot 0.70 + (1-0.44)^2 \cdot 0.20 + (2-0.44)^2\cdot 0.06+ (3-0.44)^2\cdot 0.04 =\\ & 0.6064 \end{split}\]
(fort F2) Sannolikhets och fördelningsfunktion diskreta slumpvariabler
Para ihop \(f(x)\) med \(F(X)\)
\(X=\text{"antal spam per timme"}\)
Modell: \(X \sim Po(\lambda_X)\) där \(\lambda_X=0.5\)
Vad är sannolikheten att få minst 6 spam på ett dygn?
Det första vi behöver göra är att omvandla modellens intensitets-parameter så den ger antal över rätt tidsenhet. Från per timme till per dygn.
1 spam per dygn motsvarar 24 spam per timme
\(Y=\text{antal spam per dygn}\)
Modell: \(Y \sim Po(\lambda_Y)\) där \(\lambda_Y=24\cdot 0.5 = 12\)
\[\begin{split} & P(Y\geq 6) = P(Y\geq 6) = \\ & 1-P(Y\leq 5) = 1 - F_Y(5) = \\ & 1- 0.0203 = 0.9797 \end{split}\]
Alternativt kan man beräkna värdet på fördelningsfunktionen direkt
\[\begin{split} F_Y(5) = & P(Y=0)+P(Y=1)+ \dots P(Y=5) =\\ & \frac{2^0e^{-2}}{0!} + \frac{2^1e^{-2}}{1!} +\dots +\frac{2^5e^{-2}}{5!} \end{split}\]
(fort F2) Väntevärde för en Poissonfördelning
Överkurs
\(X \sim Po(\lambda)\) and \(f(x) = \frac{\lambda^xe^{-\lambda}}{x!}\)
\[\begin{split} & E(X) = \sum_{x=0}^{\infty}x\cdot f(x) = \sum_{x=1}^{\infty}x\cdot f(x) = \\ & \sum_{x=1}^{\infty}x\cdot \frac{\lambda^xe^{-\lambda}}{x!} = \sum_{x=1}^{\infty}\frac{\lambda^xe^{-\lambda}}{(x-1)!} = \\& e^{-\lambda} \sum_{x=1}^{\infty}\frac{\lambda^x}{(x-1)!} = \\ & \lambda \cdot e^{-\lambda} \sum_{x=1}^{\infty}\frac{\lambda^{x-1}}{(x-1)!} = \\ & \lambda \cdot e^{-\lambda} \sum_{x=0}^{\infty}\frac{\lambda^x}{x!} = \lambda\cdot e^{-\lambda}\cdot e^{\lambda} = \lambda \end{split}\]
I näst sista steget använde vi det matematiska resultatet att \(\sum_{x=0}^{\infty}\frac{\lambda^x}{x!} = e^{\lambda}\)
Kontinuerliga slumpvariabler
- En kontinuerlig slumpvariabel \(X\) antar oändligt många värden. Det betyder att
\[P(X =x) = 0\]
- Istället studerar man sannolikheten för intervall, t.ex. intervallet \([a,b]\):
\[P(a \leq X \leq b)\]
- Fördelning av en kontinuerlig s.v \(X\) kan beskrivas med hjälp av en täthetsfunktion (på engelska: probability density function, PDF)
\[f_X(x) \geq 0\]
Täthetsfunktion för en kontinuerlig s.v.
På engelska: Uniform distribution
\[f(x) = \left\{ \begin{array}{lr} \frac{1}{b-a} & a \leq x \leq b\\ 0 & \text{annars} \end{array}\right.\]
Eftersom täthetsfunktionen ser ut som en rektangen kallas denna fördelning även rektangelfördelning
En likformig fördelning lämpar sig för s.v. som antar värden i ett intervall med lika stor sannolikhet.
\[f(x) = \left\{ \begin{array}{lr} \lambda\cdot e^{-\lambda x} & x \geq 0\\ 0 & \text{annars} \end{array}\right.\]
Exponentialfördelning antar icke-negativa värden \(x \geq 0\).
Det är en lämplig fördelning för att beskriva tiden det tar till en händelse, t.ex. väntetid på en buss eller att få komma in till doktorn.
\(f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) där \(-\infty < x < \infty\)
En normalfördelning har två parametrar, \(\mu\) och \(\sigma^2\) som också är fördelningens väntevärde och varians
Fördelningsfunktion för en kontinuerlig s.v.
Sannolikhet motsvarar en area under täthetsfunktionen
Fördelningsfunktionen är arean upp till utfallet \(x\)
\[F(x)=\int_{-\infty}^{x} f(v)dv\]
- Totala arean under täthesfunktionen är alltid 1
\[\int_{-\infty}^{\infty} f(x)dx\]
- \(P(X < x) = P(X\leq x)\) för kontinuerliga s.v. (inte för diskreta)
Slumpvariabeln \(X\) är likformigt fördelat i intervallet 0 till 10.
Då vet vi att täthetsfunktionen är \[f(x) = \left\{ \begin{array}{lr} \frac{1}{10} & 0 \leq x \leq 10\\ 0 & \text{annars} \end{array}\right.\]
Vad är sannolikheten att \(X\) är mindre eller lika med 7?
\[\begin{split} & P(X \leq 7) = F(7) = \int_{-\infty}^7 f(x)dx = \\ & \int_0^7 \frac{1}{10}dx = [\frac{x}{10}]_{x=0}^{7} = \\ & \frac{7}{10} - \frac{0}{10} = \frac{7}{10} \end{split}\]
Slumpvariabeln \(X\) är exponentialfördelad med parametern \(\lambda = \frac{3}{2}\)
Vi vet att \[f(x) = \left\{ \begin{array}{lr} \lambda\cdot e^{-\lambda x} & x \geq 0\\ 0 & \text{annars} \end{array}\right.\]
Vad är sannolikheten att \(X\) är mindre eller lika med 2?
\[\begin{split} & P(X \leq 2) = F(2) = \int_{-\infty}^2 f(x)dx = \\ & \int_{-\infty}^2 \lambda\cdot e^{-\lambda x}dx =\int_{0}^2 \frac{3}{2}\cdot e^{-\frac{3}{2} x}dx = \\ & [-e^{-\frac{3}{2} x}]_{x=0}^{2} = -e^{-\frac{3}{2}\cdot 2} - -e^{-\frac{3}{2} \cdot 0} = \\ & -e^{-3} + 1 = 1 - e^{-3} \end{split}\]
Fördelningsfunktion för en exponentialfördelning
Fördelningsfunktionen för en exponentialfördelad slumpvariabel är
\[F(x) = 1 - e^{-\lambda x}\]
Komplementhändelse för en kontinuerlig s.v.
\(P(X \geq x) = 1 - P(X < x) \underbrace{ =}_{P(X=x)=0} 1 - P(X \leq x)\)
Sannolikhet över ett intervall
\(P(a < X \leq b) = P(X \leq b) - P(X \leq a)\)
\(P(-2 < X \leq 1)\)
Väntevärde och varians för en kontinuerlig s.v.
\(X\) är en kontinuerlig slumpvariabel
\(\mu= E(X) = \int_{-\infty}^{\infty} xf(x)dx\)
\(\sigma^2 = V(X) = \int_{-\infty}^{\infty} (x-\mu)^2f(x)dx\)
\(X \sim Exp(\lambda)\)
\(E(X) = \frac{1}{\lambda}\)
\(V(X) = \frac{1}{\lambda^2}\)
Diskreta och kontinuerliga s.v.
Normalfördelning
Normalfördelningen är otroligt användbar och uppkommer ofta man vill beskriva olika naturliga fenomen
Normalfördelningen är en bra beskrivning av fördelningen för summor av oberoende och likafördelade slumpvariabler
Vi kommer lägga ner mycket tid på normalfördelningen i denna kurs
Det finns en del trick för att ta fram ett värde på fördelningsfunktionen för vilka parametervärden som helst
Täthetsfunktion för normalfördelning
\(X \sim N(\mu,\sigma)\)
Vissa textböcker och program använder varians i formeln \(N(\mu,\sigma^2)\)
Täthetsfunktionen för en normalfördelning ser ut som en kyrk-klocka
Normalfördelningen är symmetrisk
\(F(x) = 1 - F(-x)\)
- Typvärde, median och väntevärde sammanfaller i en normalfördelning
Fördelningsfunktion för en normalfördelning
\(X \sim N(\mu,\sigma)\)
\[\begin{split} P(X \leq 0.1) & = F(0.1) = \int_{-\infty}^{0.1}f(x)dx = \\ & \int_{-\infty}^{0.1}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \end{split}\]
Låt oss anta att \(\mu=0\) och \(\sigma=1\)
\[=\int_{-\infty}^{0.1}\frac{1}{\sqrt{2\pi}}e^{-x^2}dx = \dots\text{går att lösa men svårt}\]
Fördelningsfunktion för en normalfördelning - tabell
Istället för att beräkna integralen kan vi använda
- tabeller
- miniräknare/datorprogram
I de fall vi har en tabell - hur gör man för alla möjliga värden på väntevärdet \(\mu\) och variansen \(\sigma^2\)?
Lösningen är att standardisera fördelningen
Standardiserad normalfördelning
\(X \sim N(3,4)\)
Skapa en ny s.v. \(Z = \frac{X-3}{4}\)
Man kan visa att \(Z \sim N(0,1)\), en standardiserad normalfördelning.
Följande gäller \(X = 3 + 4\cdot Z\)
Fördelningsfunktionen för en standardiserad normalfördelning kan betecknas \(\Phi(x)\) och finns i tabell
\[\begin{split} & P(X \leq 4) = P(\frac{X-3}{4} \leq \frac{4-3}{4}) = \\ & P(Z \leq 0.25) = \Phi(0.25) \underbrace{= 0.5987}_{\text{ur tabell}} \end{split}\]
Standardiserad normalfördelning och normalfördelning
Låt \(Z \sim N(0,1)\)
Då är \(X = \mu + \sigma \cdot Z\) också normalfördelad med väntevärde \(\mu\) och varians \(\sigma^2\), d.v.s. \[X \sim N(\mu,\sigma)\]
Låt \(X \sim N(5,2)\)
\[\begin{split} & P(X \geq 0) = 1 - P(X < 0) = 1 - P(X \leq 0) = \\ & 1 - P(\frac{X-5}{2} \leq \frac{0-5}{2}) = 1 - \Phi(\frac{-5}{2}) = \\ & 1 - (1-\Phi(\frac{5}{2})) \end{split}\]
Vikten hos en alpin skidåkare med utrustning anses normalfördelad med väntevärde 80 kg och varians 36 kg^2. Skidåkaren Kim åker ensam i karbinen. Vad är sannolikheten att hens vikt överstiger 90 kg?
Låt \(X = \text{"vikt i kg"}\)
Modell: \(X \sim N(80,6)\)
\[\begin{split} & P(X > 90) = 1 - P(X \leq 90) = \\ & 1 - P(\frac{X-80}{6} \leq \frac{90-80}{6}) = 1 - \Phi(\frac{10}{6}) \end{split}\]
Kvantil
En kvantil delar en sannolikhetsfördelning i två delar.
\[P(X \leq x_{.98}) = 0.98\]
eller
\[P(X > \lambda_{.02}) = 0.02\]
Exempel på kvantiler
Median – den kvantil som delar in fördelningen i två delar, med 50% sannolikhet i varje
Kvartiler – de kvantiler som delar in fördelningen i fyra delar som har lika stor sannolikhet:
- Första kvartilen (Q1)
- Andra kvartilen = Medianen
- Tredje kvartilen (Q3)
Percentil – den p:te percentilen är det värde för en slumpvariabel som är högre än p% av alla möjliga värden
Kvantiler illustrerade med en fördelningsfunktion
Kvantiler illustrerade med en täthetsfunktion
Kvantiler illustrerade med en boxplot
Normalfördelningens kvantiler
Vi kommer använda kvantiler från en standardiserad normalfördelning för att skapa statistiska tester och konfidensintervall
Tabell-bladet innehåller några vanligt förekommande kvantiler
Extrauppgifter
Låt \(X \sim N(5,2)\)
- \(P(X \leq 6) = P(\frac{X-5}{2} \leq \frac{6-5}{2}) = \Phi(\frac{1}{2})\)
\[\begin{split} & P(1.8 < X < 7.2) = P(X < 7.2) - P(X \leq 1.8) = \\ & \Phi(\frac{7.2-5}{2})-\Phi(\frac{1.8-5}{2}) = \Phi(1.1) - \Phi(-1.6) = \\ & \Phi(1.1) - (1 - \Phi(1.6)) = 0.864 - (1 - 0.945) = 0.810 \end{split}\]
- Hitta \(a\) så att \(P(X \leq a) = 0.05\)
Låt \(Z\) vara den standardiserade normalfördelningen \(Z \sim N(0,1)\)
Vi vet följande: \(P(X \leq a) = P(Z \leq \frac{a-5}{2})\)
Om vi kan hitta kvantilen för \(Z\) så kan vi ta fram kvantilen för \(X\)
Från kvantiltabellen ser vi att \(P(Z \leq z_{.05}) = 0.05\) när \(z_{.05} = -1.645\)
utnyttja att \(\lambda_{1-\alpha} = -\lambda_{\alpha}\)
Då blir \(x_{.05} = 5 + 2 \cdot z_{.05} = 5 + 2 \cdot (-1.645) = 1.71\)